Uso de SGBDs NoSQL na Gerência da Proveniência Distribuída em Workflows Científicos

نویسندگان

  • Carlos Filipe Júnior
  • Guilherme Ferreira
  • Daniel de Oliveira
چکیده

Resumo. Um fator fundamental na gerência de experimentos modelados como workflows científicos são seus dados de proveniência. Esses dados basicamente são usados para garantir a reprodutibilidade, porém nos últimos anos eles também vêm sendo usados para tarefas de monitoramento e escalonamento de atividades. Como essas tarefas demandam consultas em tempo real, conforme a quantidade de dados de proveniência aumenta, mecanismos eficazes para armazenamento e consulta se fazem necessários. Uma das opções mais comuns é utilizar os SGBDs relacionais para gerenciar a proveniência, dada a tradição da tecnologia. Porém, novas tecnologias como os SGBDs NoSQL tem ganhado bastante atenção nos últimos anos e podem ser de grande valia nesse cenário, principalmente em ambientes distribuídos onde escalabilidade é essencial. Este artigo realiza um estudo comparativo entre SGBDs relacionais e um SGBD NoSQL (Cassandra) no que tange a gerência dos dados de proveniência. Apresentamos um estudo com um workflow real de bioinformática usando a máquina de workflows para nuvens SciCumulus.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Distribuição de Bases de Dados de Proveniência na Nuvem

Resumo. Dados de proveniência no contexto de workflows científicos são peças fundamentais, pois, por meio deles, os experimentos são passíveis de reprodução e validação. O histórico da execução dos workflows é fundamental também para a gerência da execução de novos workflows uma vez que possibilitam às máquinas de workflow realizar predições sobre desempenho ou custo financeiro de nuvens de com...

متن کامل

Captura de Metadados de Proveniência para Workflows Científicos em Nuvens Computacionais

Workflows are scientific abstractions used in the modeling of scientific experiments. High performance capabilities such as clusters and grids are often required to run the experiments. Cloud computing is starting to be adopted by the scientific community. However, the cloud environment is still incipient in collecting and recording workflow provenance. This paper presents an approach to suppor...

متن کامل

SGProv: Mecanismo de Sumarização para Múltiplos Grafos de Proveniência

Resumo. Os Sistemas de Gerência de Workflows Científicos (SGWfC) têm o objetivo de automatizar a construção e execução de experimentos científicos. Várias execuções de workflows são necessárias para realizar um experimento. O rastro de proveniência, coletado pelos SGWfC durante estas execuções, é importante para que os cientistas possam compreender, reproduzir e analisar seus experimentos. Um r...

متن کامل

SciCumulus-ECM: Um Serviço de Custos para a Execução de Workflows Científicos em Nuvens Computacionais

Resumo O conceito de computação em nuvem vem se firmando como um novo modelo computacional que proporciona aos cientistas uma oportunidade de se utilizar diversos recursos distribuídos para a execução de experimentos científicos. Muitos dos experimentos científicos existentes, modelados como workflows científicos, devem controlar a execução de atividades que consomem e produzem grandes volumes ...

متن کامل

Gerência de Proveniência Multigranular em Linked Data com a Abordagem ETL4LinkedProv

This paper presents the ETL4LinkedProv approach to manage the collection and publication of provenance metadata with different levels of granularity, as Linked Data. The approach uses ETL workflows and a novel component named Provenance Collector Agent. Its application in a real scenario is presented and the impact of the fine-grained provenance in the ETL workflow runtime and in the number of ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2014